big data - overfit.cn

hive的几种join到底有何区别

hive中，几种join的区别数据：tom,1jey,2lilly,7lilly,8tom,1lilly,3may,4bob,5以上两个为数据，没有什么意义，全是为了检测join的使用看一下两张表，其实可以看出来，在name一行有重复的，也有不重复的，在id一行1表完全包含2表left joinle

overfit同步小助手 2022-03-10 07:04:33 0 收藏

大数据的关键技术（二）

七、数据清洗技术（1）数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。（2）我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。

overfit同步小助手 2022-03-09 10:04:03 0 收藏

大数据的关键技术（一）

一、大数据处理的基本流程——采集、存储、分析和实现①数据采集->②数据归整->③数据存储->④数据处理->⑤数据呈现二、大数据技术数据采集宇预处理数据采集和管理数据处理宇分析数据安全与隐私保护（一）数据采集与预处理：联机分析处理（OLAP）与实时处理分析（二）数据存储

overfit同步小助手 2022-03-09 10:03:59 0 收藏

Flink学习中之time、watermark、state

🌿今天我们来了解一下flink中的几个重要基础概念：time、watermark、state，这是flink流处理中实现数据流执行速度快和结果正确的要点，对往期内容感兴趣的同学可以看下面👇：链接: Flink学习专辑.🌰其实在前面的章节中，我们也介绍了一些时间、状态的概念，但不够深入，本篇博客

overfit同步小助手 2022-03-07 07:51:50 0 收藏

客快物流大数据项目(五十六)：编写SparkSession对象工具类

编写SparkSession对象工具类后续业务开发过程中，每个子业务（kudu、es、clickhouse等等）都会创建SparkSession对象，以及初始化开发环境，因此将环境初始化操作封装成工具类，方便后续使用实现步骤：在公共模块的scala目录的common程序包下创建SparkUtils

overfit同步小助手 2022-03-06 07:51:57 0 收藏

2022暑期实习字节跳动数据研发面试经历

🌟今天下午面试两家，字节跳动数据研发一面和百度三面，百度那边突然不面了，hr说下个星期再看看，是直接过了还是再来一面，需要和部门商量一下，先来总结一下字节跳动的面试吧。废话，对百度面试感兴趣的同学可以参考如下文章：链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并

overfit同步小助手 2022-03-05 12:07:09 0 收藏

数字孪生是现实世界展现，“谁”能保证数据的真实性与安全性呢？

overfit同步小助手 2022-03-05 11:06:13 0 收藏

react从入门到入魔

react从入门到入迷React的基本使用创建虚拟dom的两种方式使用jsx创建虚拟dom使用原生js创建虚拟domReact的基本使用直接上hello word案例 <!DOCTYPE html><html lang="en"><head> <met

overfit同步小助手 2022-03-04 07:39:20 0 收藏

mysql-5.5.20-win32.msi安装教程详解

系列文章目录文章目录系列文章目录前言一、打开任务管理器，其中三种方式如下：1.找到下方任务栏，在空白处点击鼠标右键，找到"任务管理器",点击打开，即可开启任务管理器2.使用快捷键，先按“Ctrl+Alt”键，然后再按“Delete”键，选择"任务管理器"3.使用快捷键“Win+R”，弹出运行窗口，在

overfit同步小助手 2022-03-03 09:41:34 0 收藏

Elasticsearch（吃个泡面的时间了解清楚）

亮点Elasticsearch 官方入门视频涵盖：如何下载／运行 Elasticsearch，及其先决条件通过CRUD REST API 添加，更新，检索和删除数据基本的文本分析，包括标记和过滤基本搜索查询聚合：Elasticsearch 的面向和分析的主功能其他资源：Elasticsear

overfit同步小助手 2022-03-02 07:34:03 0 收藏

Hadoop—在私有云上创建与配置虚拟机

Hadoop-在私有云上创建与配置虚拟机一、登录私有云（一）查看【概览】（二）查看【镜像】（三）查看【实例】二、创建网络（一）创建网络三、创建实例（一）基于WindowsThinPC镜像创建hw_win7实例（二）基于centos7创建master实例（三）基于centos7创建slave1实例（四

overfit同步小助手 2022-03-01 09:38:13 0 收藏

hive之连续登录问题

目录1、开窗函数的格式2、窗口范围图例连续登录问题：限制时间段内登录次数问题：1、开窗函数的格式FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC

overfit同步小助手 2022-02-28 08:53:07 0 收藏

大数据学习笔记55：搭建HBase环境

1. 搭建HBase单机版环境2. 搭建HBase伪分布式环境3. 搭建HBase完全分布式环境

overfit同步小助手 2022-02-28 08:53:04 0 收藏

Hadoop—在私有云上创建与配置虚拟机

一、登录已有的私有云账号（1）查看【概览】（2）查看【镜像】（3）查看【实例】二、创建项目、用户与网络（1）创建项目 - huawei（2）创建用户 - huawei（3）创建网络 - LAN192三、创建实例（1）基于WindowsThinPC镜像创建hw_win7实例（2）基于centos7创建

overfit同步小助手 2022-02-28 08:53:00 0 收藏

数据湖之Hudi（9）：使用Spark向Hudi中插入数据

目录0. 相关文章链接1. 开发说明2. 环境构建2.1. 构建服务器环境2.2. 构建Maven项目3. Maven依赖4. 核心代码0. 相关文章链接大数据基础知识点文章汇总1. 开发说明Apache Hudi最初是由Uber开发的，旨在以高效率实现低延迟的数据库访问。Hudi 提供了Hudi

overfit同步小助手 2022-02-26 11:50:14 0 收藏

Flink查询关联Hbase输出

1、前言大家在开发Flink的时候，很多时候会把某些固定的维度信息存储在Hbase或者Redis等这些第三方库里，已方便来跟流发生关联查询输出。本文将从如何本地搭建一个Hbase环境开始讲起，到如何构建一个Hbase公共调用类，到如何构建一个异步调用Hbase的公共代码，再到最后实际调用代码后的输出

overfit同步小助手 2022-02-26 11:50:01 0 收藏

大数据场景下的消息队列：Kafka3.0快速入门

overfit同步小助手 2022-02-25 07:53:20 0 收藏

Spark环境搭建（保姆级教程）

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置，以及各种模式的代码提交，包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

overfit同步小助手 2022-02-25 07:53:03 0 收藏

Flink旁路输出特性简单实例：按照股价对股票进行数据分流并写出到文本文件

关于旁路输出的官方文档：https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/datastream/side_output/除了由 DataStream 操作产生的主要流之外，我们还可以产生任意数量的旁路输出结果

overfit同步小助手 2022-02-25 07:53:00 0 收藏

入门ClickHouse和Elasticsearch

❄️大多数同学都知道数据有mysql、mongodb、oracle、nosql等等，这些是我们在学校能接触到最多的数据库,今天我们就来认识2个企业中比较常用的数据库clickhouse和elasticsearch。对大数据感兴趣的同学可以参考下面的文章👇:hadoop专题: hadoop系列文章.

overfit同步小助手 2022-02-24 07:52:53 0 收藏

hive的几种join到底有何区别

大数据的关键技术（二）

大数据的关键技术（一）

Flink学习中之time、watermark、state

客快物流大数据项目(五十六)：编写SparkSession对象工具类

2022暑期实习字节跳动数据研发面试经历

数字孪生是现实世界展现，“谁”能保证数据的真实性与安全性呢？

react从入门到入魔

mysql-5.5.20-win32.msi安装教程详解

Elasticsearch（吃个泡面的时间了解清楚）

Hadoop—在私有云上创建与配置虚拟机

hive之连续登录问题

大数据学习笔记55：搭建HBase环境

Hadoop—在私有云上创建与配置虚拟机

数据湖之Hudi（9）：使用Spark向Hudi中插入数据

Flink查询关联Hbase输出

大数据场景下的消息队列：Kafka3.0快速入门

Spark环境搭建（保姆级教程）

Flink旁路输出特性简单实例：按照股价对股票进行数据分流并写出到文本文件

入门ClickHouse和Elasticsearch

作者榜

资讯小助手

内容小助手

Deephub

奕凯